주요 NLP Task

자연어 처리 기술은 문장을 이해하고 생성하는 방식을 바탕으로 다양한 Task로 응용됩니다.

1. 기계 번역 (Machine Translation)

하나의 언어로 된 문장(Source)을 다른 언어의 문장(Target)으로 자동 번역하는 기술입니다.
인코더-디코더 구조가 대표적이며, 문장의 의미를 이해하고 새로운 문장을 생성하는 능력이 모두 필요합니다.

1

입력 처리 (인코더)

영어 문장 "I love a dog"이 토큰화 및 임베딩을 거쳐,
문장 전체의 의미를 압축한 문맥 벡터(Context Vector)로 변환됩니다.

2

의미 번역 (디코더)

디코더는 '문맥 벡터'를 참고하여,
다음에 올 한국어 단어를 순서대로 예측합니다.

3

출력 생성

생성된 토큰들 ['나', '는', '개', '를', '사랑', '해', '.']을 합쳐
"나는 개를 사랑해 ." 라는 최종 번역 결과를 완성합니다.

세부 Task 예시

신경망 기계 번역 (NMT)

딥러닝 모델로 문맥을 파악해 더 자연스러운 번역문을 생성합니다. (예
구글 번역, 파파고)

텍스트 요약 (Text Summarization)

긴 문서를 짧은 요약문으로 번역하는 Task로 볼 수 있습니다.
문서의 핵심을 이해(인코더)하고 요약문을 생성(디코더)합니다.

2. 텍스트 분류 (Text Classification)

주어진 텍스트를 미리 정해진 여러 카테고리(Label) 중 하나로 자동 분류하는 기술입니다.
문장 전체의 의미를 하나의 대표 벡터로 압축하고, 이 벡터를 이용해 어떤 카테고리에 속할지 판단하는 능력이 핵심입니다.

1

입력 처리 (문장 의미 압축)

문장 "이 영화 정말 최고예요!"가 입력되면,
문장 전체의 의미를 요약한 하나의 대표 벡터(Sentence Vector)를 생성합니다.

2

감성 분류 (Classifier)

대표 벡터를 분류기(Classifier)에 전달하여,
'긍정', '부정' 등 각 항목에 대한 확률 점수를 계산합니다.

3

출력 생성

가장 높은 확률을 가진 '긍정'을 최종 결과로 선택합니다.
모델은 '최고예요'가 '긍정'과 관련 깊다는 것을 학습된 가중치(Weight)를 통해 알고 있습니다.

세부 Task 예시

감성 분석 (Sentiment Analysis)

텍스트에 담긴 감정을 '긍정', '부정', '중립' 중 하나로 분류합니다. (예
영화/상품 리뷰 분석)

뉴스 기사 분류

뉴스 내용을 분석하여 '정치', '경제', '스포츠' 등 적절한 섹션으로 자동 배정합니다.

스팸 메일 필터링

메일 내용을 분석하여 '스팸'인지 '정상' 메일인지 분류하는 고전적인 Task입니다.

의도 분류 (Intent Classification)

사용자의 질문이 '날씨 문의', '음악 재생' 등 어떤 의도를 가졌는지 분류합니다. (챗봇의 핵심 기술)

3. 텍스트 생성 (Text Generation)

특정 문맥(프롬프트)이 주어졌을 때, 다음에 이어질 가장 자연스러운 단어를 순서대로 예측하여
새로운 문장을 창작하는 기술입니다. 디코더 구조가 이 역할을 수행합니다.

1

입력 처리 (문맥 이해)

시작 문장(프롬프트) "오늘 저녁 메뉴는"이 주어지면,
모델은 이 문장을 벡터의 나열로 변환하여 초기 문맥을 파악합니다.

2

다음 단어 예측 (Generator)

모델은 현재까지의 문맥을 바탕으로 다음에 올 단어로 가장 확률이 높은 것을 예측하고,
그 예측된 단어를 다시 문맥에 추가하는 과정을 반복합니다.

3

출력 생성

'(생성 종료)' 토큰이 나올 때까지 단어 생성을 반복하고,
생성된 토큰들을 합쳐 "오늘 저녁 메뉴는 김치찌개 가 어떨까?" 라는 새로운 문장을 완성합니다.

세부 Task 예시

챗봇 및 대화형 AI

사용자의 이전 대화 내용을 문맥으로 삼아,
사람처럼 자연스러운 답변 문장을 생성합니다.

마케팅 카피라이팅

제품의 핵심 키워드 몇 개를 입력하면,
그럴듯한 광고 문구나 제품 설명문을 자동으로 생성합니다.

코드 생성 (Code Generation)

"파이썬으로 웹서버 만들기" 같은 주석이나 설명을 입력하면,
그에 맞는 프로그래밍 코드를 생성합니다.